? 信息時代,檔案數(shù)字化已成為今后一段時期檔案工作的重中之重,紙質(zhì)檔案掃描工作在各地如火如荼地進行。然而,掃描所產(chǎn)生的電子檔案實際上只是以圖像形式存在的文件,而非真正意義上的文本文件。也就是說,計算機只認識檔案的外表,卻不認識其內(nèi)在文字。用戶通過計算機只能看到檔案的原貌,卻不能對其中的內(nèi)容進行引用、檢索等操作,這無疑對將來的電子檔案利用工作造成了很大的不便??紤]到檔案用戶的利用需求,若要得到真正文本形態(tài)的電子檔案,使檔案數(shù)字化工作更加有效、更加徹底,便要應用到OCR技術。
?一、OCR概況
所謂OCR(Optical Character Recognition)即光學字符識別。通俗點說,就是讓計算機
“認字”。其原理是通過專門的OCR軟件將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態(tài)特征。通過比對標準特征庫中的數(shù)據(jù),判斷出該文字在計算機中的標準編碼并按通用格式輸出保存在文本文件中。
OCR的工作流程為影像輸入、影像前處理、文字特征抽取、比對識別、人工校正、最后將識別結果輸出保存。①雖然一張圖像真正用于軟件識別的時間不到一秒,但前期和后的加工處理不可小視。尤其是前兩個環(huán)節(jié)的操作,往往決定了OCR軟件的識別率,乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié),則是保證OCR工作質(zhì)量的最直接環(huán)節(jié)。
二、OCR技術的優(yōu)勢及其在檔案數(shù)字化過程中的應用
OCR技術相對于傳統(tǒng)的手工錄入方式來說,具有強大的優(yōu)勢。首先,OCR文字識別的速度遠快于手工錄入。根據(jù)國際通行的打字速度評級標準,即使是專業(yè)人員,每分鐘也僅能輸入150~240個字。而采用OCR技術,即使算上前后期的處理環(huán)節(jié)所花時間,其速度也絕對比前者快好多倍。其次,OCR文字識別的質(zhì)量遠高于手工錄入。雖然由于各種因素影響,OCR技術的識別率很難達到100%,但比起大批量手工錄入,其出錯率要小得多。最后,OCR還節(jié)省了大量人力資源,優(yōu)化了資源配置,使人員分配于更加有意義的工作。
對于檔案數(shù)字化工作來說,OCR技術除了具有以上幾個普遍的優(yōu)勢之外,還有其獨特的用武之地。
1.創(chuàng)新著錄標引方式
創(chuàng)建檔案目錄數(shù)據(jù)庫是一項較基礎的檔案數(shù)字化工作,目前大多數(shù)檔案館都在進行這項工作很多檔案館已建成較為完備的目錄庫。然而各檔案部門的檔案條目基本都是通過手工錄入的,既費時又費力,還很容易出錯。尤其是一些檔案、標題很長,又是“印發(fā)”又是“轉發(fā)”一個題名就占了好幾行,要輸入老半天。
OCR技術提供了一種新的著錄方式,使檔案條目通過計算機錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項:如題名、文號、責任者等復制粘貼到目錄數(shù)據(jù)庫的相應字段中去。
但這么做必須先掃描檔案全文、OCR然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程。因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理,再復制粘貼條目或通過特定的程序自動采集條目信息
但由于很多卷內(nèi)目錄是手寫的OCR無法識別,只得依靠手工錄入。相信隨著未來技術的發(fā)展,OCR在這方面的應用一定能夠有所突破。
此外,系統(tǒng)還可以對OCR后的檔案全文進行詞頻統(tǒng)計、內(nèi)容分析從而自動提取關鍵詞、主題詞等標識符一定程度上實現(xiàn)了檔案內(nèi)容的自動標引。
2.實現(xiàn)真正的全文檢索
檔案工作中所說的全文檢索實際包括兩種類型:一種是僅對檔案目錄數(shù)據(jù)庫進行檢索,找到相關條目后再打開相應的檔案全文。目前檔案館大多采用這種檢索方式。且尚有很多檔案沒有電子全文。另一種是真正的全文檢索,即直接對檔案全文庫進行檢索,而且是對檔案全文進行逐字檢索。很明顯,后一種檢索方式的查全率比前者要高出很多。使用戶能從浩如煙海的檔案館藏中找到更多所需信息,更深入地開發(fā)利用檔案信息資源。而要實現(xiàn)真正的全文檢索自然離不開OCR技術,因為只有將掃描圖像中的文字變成文本格式,才有可能對其中的文字進行逐字檢索。
3.支持雙層PDF技術
所謂雙層PDF,就是一個PDF文件中的每一頁都包含兩層,上層是掃描所得到原始圖,下層是OCR識別的文字結果。這種技術在數(shù)字圖書館領域已得到廣泛應用。我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻大多采用了雙層PDF技術。
由于采用雙層PDF技術既能較好地保證檔案的原真性,在用戶需要時又能對檔案中的文字進行選擇、復制、搜索等處理。因此必將在今后的檔案數(shù)字化工作中越來越得到青睞。而這一技術的運用必須首先以OCR技術為支撐。
4.拓寬檔案用戶利用面
以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用如政府查閱某份文件、居民查閱房產(chǎn)證、結婚證、學籍卡等這些利用需求對檔案的原真性要求較高。很多情況下還是需要紙質(zhì)檔案才能發(fā)揮作用。但檔案用戶的利用面絕不應該僅限于此,檔案除了擁有憑證價值還與圖書、情報一樣具有情報價值、參考價值。如利用檔案進行學術研究時,用戶就更加注重檔案的知識性、信息性但如果檔案是紙質(zhì)的要利用其中的內(nèi)容就必須親自去檔案館。通過印刷或手工摘錄所需信息,非常不便以至于有些用戶轉而通過網(wǎng)站或數(shù)字圖書館查閱所需信息。
將紙質(zhì)檔案數(shù)字化并采用OCR識別,能夠使檔案信息資源實現(xiàn)全文檢索、網(wǎng)絡傳輸、方便用戶異地檢索、復制引用。從而深化用戶對檔案內(nèi)容的查詢與利用,拓寬其利用面。使檔案也能像圖書、情報一樣成為人們?nèi)粘I钪蝎@取信息、利用信息、增加學識的手段使檔案多方面地服務于公眾。
三、提高檔案數(shù)字化過程中的OCR識別率OCR識別率是整個OCR工作的中心問題。有專家認為,OCR識別率低于90%,采用OCR技術便毫無意義因為后期需要進行大量的人工校正工作,抵消了OCR所帶來的效率。
對于檔案數(shù)字化這樣浩大的工程來說,提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力。從而提高整個檔案數(shù)字化工作的效率極大地降低檔案數(shù)字化的成本。